查看原文
其他

ACL 2021 | 基于依存句法驱动注意力图卷积神经网络的关系抽取

陈桂敏 PaperWeekly 2022-07-04


©作者 | 陈桂敏
来源 | QTrade AI研究中心

QTrade 的 AI研究中心是一支将近 30 人的团队,主要研究方向包括:预训练模型、信息抽取、对话机器人、内容推荐等。本文介绍的是一篇信息抽取相关的论文,收录于 ACL 2021,论文提出了基于依存句法驱动的注意力图卷积神经网络模型 A-GCN,用于关系抽取任务,利用依存句法中的有用信息,帮助模型提升模型。



论文标题:

Dependency-driven Relation Extraction with Attentive Graph Convolutional Networks

论文链接:

https://aclanthology.org/2021.acl-long.344.pdf

代码链接:

https://github.com/cuhksz-nlp/RE-AGCN



背景介绍

关系抽取(Relation Extraction)是 NLP 领域最重要的研究任务之一,其目标是识别文本中两个实体之间的关系类型。在已有的研究里,句法信息(譬如依存句法)被广泛应用于关系抽取任务,利用句法中的有用信息帮助模型提升性能。

图 1 是依存句法的例子,在句子“We poured the milk into the pumpkin mixture which is contained in a bowl”中,要预测实体“milk”和“pumpkin mixture”之间的关系标签(content-container),两者之间的依存句法关系以及关系类型能够提供丰富的上下文信息,帮助模型识别实体之间的关系标签,不过,并不是所有依存句法知识都是有用的,譬如实体“pumpkin mixture”和“bowl”之间的依存句法知识会成为噪声,影响模型的性能。


▲ 图1:带依存句法树的例子

与前人工作相比,该论文采用了注意力图卷积神经网络模型 A-GCN,基于剪枝的依存句法知识,对词与词之间的依存关系以及关系类型进行上下文建模,通过注意力机制区分不同上下文特征的重要性,识别句法知识中的噪声,从而提升模型在关系抽取任务中的性能。

 


模型架构

论文中的模型结构如图 2,展示了模型如何基于输入句子的依存句法树构建关系图及其关系类型,通过注意力图卷积神经网络模型对上下文信息进行建模。具体地,对于每一个输入的文本,首先使用依存句法工具自动处理文本并生成依存句法树,构建词与词之间的关系图(关联矩阵,Adjacency Matrix)及其关系类型(依存类型矩阵,Dependency Type Matrix)。

然后,使用 BERT 作为编码器,提取文本序列的表征 h,并将文本序列表征 h 和关联矩阵 Adjacency Matrix、依存类型矩阵 Dependency Type Matrix 输入 A-GCN 模块。

在 A-GCN 模块里,对于序列中的每一个词,将其与相关上下文词的依存关系和关系类型作为上下文特征进行编码,同时,为了区分不同上下文特征的重要性,采用注意力机制,通过计算词与词之间的点积,以此构建注意力矩阵(Attention Matrix),作为权重分配给其上下文特征,进而识别句法知识中的噪声,突出重要信息的作用。最后,基于 A-GCN 的输出,预测两个实体之间的关系标签。


▲ 图2:基于依存句法驱动的注意力图卷积神经网络模型架构图


实验结果


该论文在两个基准数据集上评测了模型的性能。表 1 展示了模型跟前人的模型在两个基准数据集上 F1 值对比。从实验结果可以看出,该研究提出的注意力图卷积神经网络模型在两个基准数据集上都超过了前人的研究,达到了目前最高的关系抽取任务成绩,充分表明了该研究提出的模型能够有效利用上下文信息来提升模型性能。


▲ 表1:模型在两个基准数据集上的性能

此外,在论文中,该研究对不同类型的依存信息进行了分析,表 2 展示了模型利用不同类型依存信息在两个基准数据集上的性能。其中,L 指基于实体的一阶依存信息构建关联图,G 指沿着实体之间的依存路径构建关联图。从实验结果看,基于 L+G 构建关联图能使模型 A-GCN 达到最佳效果。


▲ 表2:模型利用不同类型依存信息,在两个基准数据集上的性能


该研究还设置几组不同设定的实验来分析注意力机制和依存类型对模型的重要性。图 3 展示的是模型 A-GCN 和普通 GCN、基准模型 BERT 在 SemEval 数据集上不同实体距离组的性能,实验结果验证了注意力机制对模型在长距离实体上的有效性。

表 3 展示的是不同设定下模型在两个基准数据集上的性能,从实验结果看,不管是移除注意力机制还是依存类型,都有损模型的性能,建议同时使用注意力机制和依存类型来提升模型性能。


▲ 图3:模型在SemEval数据集上不同实体距离组的性能


▲ 表3:不同设定下模型在两个基准数据集上的性能


论文总结

该论文针对关系抽取任务,设计了基于依存句法驱动的注意力图卷积神经网络模型,其创新点在于:将依存信息及其关系类型用于上下文信息的建模,通过注意力机制区分上下文特征的重要性,在两个基准数据集上的实验结果超过了前人成绩,达到了目前最好的效果。


关于 QTrade


QTrade 是腾讯旗下领先的金融科技与监管科技公司,致力于为金融固定收益行业提供专业化、智能化的交易解决方案。以腾讯的即时通讯工具(IM)为入口、金融市场实时行情数据为依托、AI 语义解析能力为核心,QTrade 通过深耕固收市场交易业务流程、深挖交易痛点,搭建了以连接市场、提升效率、发现价值、满足合规为四大价值体系的产品版图,为固收市场及从业者提供自动化、集成化的智能平台服务。


欢迎 AI 领域志同道合的伙伴与腾讯 QTrade 取得联系:

zhaopin@qtrade.com.cn

 

🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧



·

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存